Most existing distillation methods ignore the flexible role of the temperature in the loss function and fix it as a hyper-parameter that can be decided by an inefficient grid search. In general, the temperature controls the discrepancy between two distributions and can faithfully determine the difficulty level of the distillation task. Keeping a constant temperature, i.e., a fixed level of task difficulty, is usually sub-optimal for a growing student during its progressive learning stages. In this paper, we propose a simple curriculum-based technique, termed Curriculum Temperature for Knowledge Distillation (CTKD), which controls the task difficulty level during the student's learning career through a dynamic and learnable temperature. Specifically, following an easy-to-hard curriculum, we gradually increase the distillation loss w.r.t. the temperature, leading to increased distillation difficulty in an adversarial manner. As an easy-to-use plug-in technique, CTKD can be seamlessly integrated into existing knowledge distillation frameworks and brings general improvements at a negligible additional computation cost. Extensive experiments on CIFAR-100, ImageNet-2012, and MS-COCO demonstrate the effectiveness of our method. Our code is available at https://github.com/zhengli97/CTKD.
translated by 谷歌翻译
In recent years, semi-supervised graph learning with data augmentation (DA) is currently the most commonly used and best-performing method to enhance model robustness in sparse scenarios with few labeled samples. Differing from homogeneous graph, DA in heterogeneous graph has greater challenges: heterogeneity of information requires DA strategies to effectively handle heterogeneous relations, which considers the information contribution of different types of neighbors and edges to the target nodes. Furthermore, over-squashing of information is caused by the negative curvature that formed by the non-uniformity distribution and strong clustering in complex graph. To address these challenges, this paper presents a novel method named Semi-Supervised Heterogeneous Graph Learning with Multi-level Data Augmentation (HG-MDA). For the problem of heterogeneity of information in DA, node and topology augmentation strategies are proposed for the characteristics of heterogeneous graph. And meta-relation-based attention is applied as one of the indexes for selecting augmented nodes and edges. For the problem of over-squashing of information, triangle based edge adding and removing are designed to alleviate the negative curvature and bring the gain of topology. Finally, the loss function consists of the cross-entropy loss for labeled data and the consistency regularization for unlabeled data. In order to effectively fuse the prediction results of various DA strategies, the sharpening is used. Existing experiments on public datasets, i.e., ACM, DBLP, OGB, and industry dataset MB show that HG-MDA outperforms current SOTA models. Additionly, HG-MDA is applied to user identification in internet finance scenarios, helping the business to add 30% key users, and increase loans and balances by 3.6%, 11.1%, and 9.8%.
translated by 谷歌翻译
近年来,几项作品采用了卷积神经网络(CNN)来诊断基于X射线图像或磁共振成像(MRI)的股骨头(AVNFH)的无血管坏死。但是,由于组织重叠,X射线图像很难为早期诊断提供细粒度。另一方面,MRI的成像时间很长,更昂贵,使其在大规模筛查中不切实际。计算机断层扫描(CT)显示了层的组织,图像速度更快,并且比MRI成本较小。但是,据我们所知,对于基于CT的AVNFH诊断没有工作。在这项工作中,我们收集并标记为AVNFH排名的大型数据集。此外,现有的端到端CNN仅产生分类结果,并且很难为诊断医生提供更多信息。为了解决这个问题,我们提出了结构正规化的专注网络(Sranet),该网络能够根据贴剂注意力在分类过程中突出坏死区域。 Sranet提取物在图像块中的特征,通过注意机制获得重量以汇总特征,并通过具有先验知识的结构正常化程序来限制它们以改善概括。 Sranet在我们的AVNFH-CT数据集上进行了评估。实验结果表明,Sranet优于CNN,用于AVNFH分类,此外,它可以定位病变并提供更多信息以帮助医生进行诊断。我们的代码在https://github.com/tomas-lilingfeng/sranet上公开。
translated by 谷歌翻译
本文描述了我们对第四个情感行为分析(ABAW)竞争的提交。我们提出了一个用于多任务学习(MTL)的混合CNN转换模型,并从合成数据(LSD)任务中学习。验证数据集的实验结果表明,我们的方法比基线模型获得了更好的性能,该模型验证了提出的网络的有效性。
translated by 谷歌翻译
场景细分和分类(SSC)是迈向视频结构分析领域的关键步骤。直观地,共同学习这两个任务可以通过共享共同信息相互促进。但是,场景细分更多地涉及相邻镜头之间的局部差异,而分类需要场景段的全局表示,这可能导致该模型在训练阶段中由两个任务之一主导。在本文中,从替代角度来克服上述挑战,我们将这两个任务通过一种预测镜头链接的新形式团结到一个任务中:链接连接两个相邻的镜头,表明它们属于同一场景或类别。最后,我们提出了一个一般的单阶段多模式顺序链接框架(OS-MSL),以通过将两个学习任务改革为统一的任务来区分和利用两倍的语义。此外,我们量身定制一个称为diffcorrnet的特定模块,以明确提取镜头之间的差异和相关性信息。对从现实世界应用收集的全新大规模数据集和电影塞恩进行了广泛的实验。两种结果都证明了我们提出的方法对强基础的有效性。
translated by 谷歌翻译
如图1所示,光学特征识别(OCR)技术已在各种场景中广泛使用。设计实用的OCR系统仍然是一项有意义但具有挑战性的任务。在以前的工作中,考虑到效率和准确性,我们提出了实用的超轻型OCR系统(PP-OCR)和优化的版本PP-OCRV2。为了进一步提高PP-OCRV2的性能,本文提出了更强大的OCR系统PP-OCRV3。 PP-OCRV3基于PP-OCRV2的9个方面升级了文本检测模型和文本识别模型。对于文本检测器,我们引入了一个带有大型接收场LK-PAN的锅模块,该模块是一个名为RSE-FPN的剩余注意机制的FPN模块和DML蒸馏策略。对于文本识别器,基本模型将从CRNN替换为SVTR,我们介绍了轻量级文本识别网络SVTR LCNET,通过注意力进行CTC的指导培训,数据增强策略TextConaug,由自我审查的TextRotnet,UDML和UDML和UDML和UDML和更好的预培训模型。 UIM加速模型并改善效果。实际数据上的实验表明,在可比的推理速度下,PP-OCRV3的Hmean比PP-OCRV2高5%。上述所有上述型号都是开源的,并且代码可在由PaddlePaddle供电的GitHub存储库Paddleocr中可用。
translated by 谷歌翻译
灵巧的操纵任务通常具有多个目标,这些目标的优先级可能会在操纵任务的不同阶段有所不同。不同的优先级使机器人几乎没有甚至没有通过深入的强化学习(DRL)方法来学习最佳政策。为了解决这个问题,我们开发了一种新颖的自适应分层奖励机制(AHRM),以指导DRL代理学习具有多个优先目标的操纵任务。AHRM可以在学习过程中确定客观优先级,并更新奖励层次结构,以适应不同阶段的客观优先级。所提出的方法通过Jaco机器人组在多目标操纵任务中进行了验证,该机器人需要在该任务中用障碍物包围来操纵目标。模拟和物理实验结果表明,该方法改善了任务绩效和学习效率的机器人学习。
translated by 谷歌翻译
在高度互动的场景中进行运动预测是自主驾驶中的一个挑战性问题。在这种情况下,我们需要准确预测相互作用的代理的共同行为,以确保自动驾驶汽车的安全有效导航。最近,由于其在性能方面的优势和捕获轨迹分布中多模态的能力,目标条件方法引起了人们的关注。在这项工作中,我们研究了目标条件框架的联合轨迹预测问题。特别是,我们引入了一个有条件的基于AutoEncoder(CVAE)模型,以将不同的相互作用模式明确地编码到潜在空间中。但是,我们发现香草模型遭受后塌陷,无法根据需要诱导信息的潜在空间。为了解决这些问题,我们提出了一种新颖的方法,以避免KL消失并诱导具有伪标签的可解释的互动潜在空间。提出的伪标签使我们能够以灵活的方式将域知识纳入有关相互作用的知识。我们使用说明性玩具示例激励提出的方法。此外,我们通过定量和定性评估验证Waymo Open Motion数据集上的框架。
translated by 谷歌翻译
最近,已经表明,自然语言处理(NLP)模型容易受到一种称为后门攻击的安全威胁,它利用“后门触发器”范例误导模型。最威胁的后门攻击是隐身的后门,它将触发器定义为文本样式或句法。虽然他们已经取得了令人难以置信的高攻击成功率(ASR),但我们发现为ASR的主要因素贡献不是“后门触发”范式。因此,当作为后门攻击分类时,这些隐身后门攻击的能力大得多。因此,为了评估后门攻击的真正攻击力,我们提出了一种称为攻击成功率差异(ASRD)的新度量,从而测量干净状态和毒药状态模型之间的ASR差异。此外,由于对抗隐蔽的后门攻击的防御,我们提出了触发破坏者,包括两个太简单的技巧,可以有效地防御隐秘的后门攻击。关于文本分类任务的实验表明,我们的方法比对隐身后门攻击的最先进的防御方法实现了更好的性能。
translated by 谷歌翻译
图表卷积网络在基于图形的半监督学习方面取得了很大进展。现有方法主要假设通过图形边缘连接的节点容易具有相似的属性和标签,因此由本地图形结构平滑的特征可以揭示类相似性。然而,在许多真实情景中的图形结构和标签之间经常存在不匹配,其中结构可以传播最终影响模型性能的误导性功能或标签。在本文中,我们提出了一种多任务的自蒸馏框架,将自我监督的学习和自蒸煮注入图形卷积网络中,以分别地解决结构侧和标签侧的不匹配问题。首先,我们基于预先文本任务制定自我监督管道,以捕获图表中的不同程度的相似性。鼓励特征提取过程通过联合优化预文本任务和目标任务来捕获更复杂的接近。因此,从结构侧提高了本地特征聚合。其次,自蒸馏使用模型本身的软标签作为额外的监督,这与标签平滑有类似的效果。从分类管道和自我监督管道的知识共同蒸馏,以改善来自标签侧的模型的泛化能力。实验结果表明,该方法在几种经典图卷积架构下获得了显着性能增益。
translated by 谷歌翻译